Introduction à la programmation Triton : au-delà des opérations élément par élément : le passage aux opérations matricielles par tuiles

Dans les leçons précédentes, nous avons concentré notre attention sur opérations élément par élément (comme une fonction ReLU de base sur une matrice). Elles sont limitées par la mémoire car la GPU passe plus de temps à déplacer les données depuis la mémoire HBM vers les registres qu'à effectuer des calculs.

1. Pourquoi le GEMM est central

La multiplication matricielle générale (GEMM) présente une complexité computationnelle de $O(N^3)$ tout en n'exigeant que $O(N^2)$ accès mémoire. Cela nous permet de masquer la latence mémoire derrière un débit arithmétique massif, en faisant du GEMM le « cœur » des modèles de langage à grande échelle (LLM).

2. Représentation mémoire en 2D

La mémoire physique est à 1 dimension. Pour représenter un tenseur en 2D, nous utilisons pas. Une erreur courante en production est de supposer qu'un tenseur est contigu. Si vous confondez les pas des lignes et des colonnes dans vos calculs d'adressage, vous accéderez à des données fantômes ou déclencherez des violations de mémoire.

3. Généralisation par tuiles

Triton généralise la logique élément par élément en passant de des pointeurs simples à des blocs de pointeurs. En utilisant des tuiles 2D (par exemple, $16 \times 16$), nous exploitions la réutilisation des données dans la SRAM haute vitesse, en maintenant les données « chaudes » pour des opérations fusionnées comme l'addition du biais ou les activations avant de les écrire de retour en mémoire globale.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Why is an elementwise ReLU on a large matrix considered 'memory-bound'?

The ReLU function requires complex transcendental math.

The ratio of arithmetic operations to memory loads is very low (1:1).

Matrices are naturally stored in CPU memory only.

Triton cannot process non-linear activations.

QUESTION 2

What is the result of 'The Stride Trap' in production kernels?

The kernel runs significantly faster but with less precision.

Memory access violations or corrupted output due to incorrect address calculation on non-contiguous tensors.

The GPU automatically corrects the indexing using L2 cache.

The tensor is forced into a 1D shape by the compiler.

QUESTION 3

How does Triton represent a 2D tile of pointers?

By using a nested Python list of integers.

By broadcasting a 1D column vector and a 1D row vector of offsets together.

By launching multiple 1D kernels sequentially.

By allocating a special 2D register file.

QUESTION 4

Which operation benefits most from the O(N³) complexity shift to hide memory latency?

Vector Addition

Matrix Multiplication (GEMM)

Sigmoid Activation

Global Average Pooling

QUESTION 5

List three kernels in your current workflow that launch multiple PyTorch ops and might benefit from fusion.

Linear -> Bias -> ReLU; LayerNorm -> Dropout; Softmax -> Masking.

Print -> Log -> Sleep.

DataLoader -> Augmentation -> Storage.

These ops cannot be fused in Triton.